592 词

标题:Google DeepMind 发布 Lyria 3,多模态音乐生成能力接入 Gemini 与 Vertex AI

DeepMind 推出第三代高保真音乐生成大模型 Lyria 3,首次实现“图/文/视频到音频”的直连生成,并同步作为可编程基础设施开放 API。
iShot_2026-02-19_19.41.48

架构与多模态生成能力

Lyria 3 突破了单一文本输入的限制,支持基于自然语言、图片及视频直接输出 30 秒高保真(48kHz)音频。 模型原生具备自动作词与和弦编排能力,用户可通过 Prompt 对流派、BPM(节奏)、人声声线及情绪张力进行细粒度控制。底层采用 Causal Streaming(因果流)架构,确保生成速度大于播放速度(RTF > 1),满足生产级系统的实时吞吐需求。在 Gemini 应用内,系统自动调用 Nano Banana 图像模型为生成的音轨输出定制化单曲封面。

商业与开发生态双线接入

  • 消费者端:以“Music”工具面板形式全量接入 Gemini Web 及移动端,首批支持英语、德语、日语等 8 种语言。Google AI Plus/Pro/Ultra 订阅用户享有比基础免费用戶更高的生成额度。
  • 开发者端:通过 Vertex AI 提供 API 接口,标志着音频生成正式被作为可编程基础设施对待。开发者可进行进阶操作,如音频转换(哼唱转管弦乐)、MIDI 风格迁移(通过 MIDI 和弦生成人声合唱)及保持原始旋律的乐器无缝替换。
454 词

核心摘要:Google 修正了 NotebookLM 幻灯片生成功能最大的工作流断点,新增通过提示词对单张幻灯片进行局部修改的能力,并首次支持 .pptx 格式导出,产品形态从“一次性生成器”向“实用生产力工具”过渡。

基于提示词的单页修改

  • 机制升级:彻底摒弃此前“改动一处需重新生成整套 PPT”的全局渲染模式。用户现可锁定单张幻灯片(如“第 3 页”),通过输入提示词(例:“将第 3 页缩减为三个要点”或“调整第 6 页为高管汇报语气”)进行内容结构、长度或基调的定向修改。
  • 分发进度:该功能于 2026 年 2 月 17 日起,率先在 Web 端向 Google AI Pro / Ultra 订阅用户推送。免费版用户将在未来几周内获得访问权限,移动端支持暂未实装。

格式解锁与生态接入

  • 新增导出格式:打破原有的死板 PDF 封装限制,正式提供 .pptx 格式原生导出,允许用户将幻灯片直接拖入 Microsoft PowerPoint 进行后续流程。
  • 后续路线图:NotebookLM 官方团队在 X 明确确认,与自家 Google Slides 的原生打通功能“即将上线”。
602 词

Moonshot AI 推出基于 K2.5 模型驱动的云端智能体服务 Kimi Claw,通过免部署、24/7 在线及原生集成 5000+ 社区技能,消除本地 AI 助手的硬件与技术门槛。
iShot_2026-02-16_13.23.15

技术基建与底层重构

  • 免部署云原生化:将 GitHub 上拥有 15 万标星的开源项目 OpenClaw 封装为浏览器端(kimi.com/bot)云服务。用户无需配置本地终端或维持服务器长亮,实现实例 24/7 全天候在线。
  • 算力与存储:默认搭载 Moonshot K2.5 模型,提供 40GB 专属云端存储空间,用于支撑大规模数据工作流(Data Workflows)与文件长时记忆。
  • 实时数据挂载:引入企业级搜索(Pro-Grade Search),支持抓取特定结构化实时数据(如金融盘口),通过动态信息注入(Grounding)降低时间敏感型任务中的模型幻觉。

生态集成与执行能力

  • 插件与技能栈:系统级集成 ClawHub 全球技能注册表,开箱即用超过 5000 个社区 Skills(涵盖代码、系统运维、日常自动化)。
  • 企业与通讯网络打通:支持快速接入飞书、WhatsApp、Telegram 等通讯和协同工具,作为独立实体自主执行异步定时任务和自动化管道。
  • 混合部署架构(BYOC):针对已有本地节点的开发者,提供 “Bring Your Own Claw” 桥接功能,允许保留本地系统级控制权(如控制智能家居或本地硬件)的同时,调用 Kimi 云端界面的管理能力。
585 词

爆火开源智能体OpenClaw创始人Peter Steinberger正式加盟OpenAI主导个人智能体研发,标志着巨头AI战略重心正从“大模型对话”向“多智能体执行”发生实质性转移。

人事落定与项目剥离

  • 人才争夺:Peter Steinberger 拒绝了 Meta(含扎克伯格的亲自招募),于当地时间2026年2月15日确认加入 OpenAI。OpenAI CEO Sam Altman 在 X 平台确认,Steinberger 将负责“下一代个人智能体(personal agents)”的开发。
  • 开源归属:为打消社区疑虑,OpenClaw(前身 Clawdbot/Moltbot)不会被 OpenAI 私有化,而是转移至一个独立的基金会继续保持开源,OpenAI 承诺提供支持。此前该项目为个人维护,Steinberger 每月自费1万至2万美元维持运转。

战略锚点:消费级 Agent 的破局

  • 交互降槛:Steinberger 入职的明确目标是构建“连母亲都能使用的智能体”。OpenClaw 此前在 GitHub 狂揽超10万星,单周访问量破200万,能自主跨应用处理邮件及航班值机,但极客属性过重。
  • 技术走向:Altman 明确表示未来将是一个“极度多智能体(extremely multi-agent)”的世界。OpenAI 意图借此补齐大模型与普通用户间的应用层短板,完成 AI 从开发者玩具到大众消费品的跨越。
1.2k 词

字节跳动基座大模型完成跨代升级,Doubao-Seed-2.0 聚焦大规模生产环境中的复杂任务执行,通过单价降维打击(百万 Tokens 0.6元起)与多模态大一统架构,争夺企业级 Agent 底层算力入口。

2026 年 2 月 14 日,字节跳动(火山引擎)正式上线 Doubao-Seed-2.0 系列,包含四款针对不同业务流优化的细分版本:

  • Doubao-Seed-2.0-Pro:旗舰级通用模型,定位复杂指令规划与多模态长上下文推理,能力全面对标 GPT-5.2 与 Gemini 3 Pro。
  • Doubao-Seed-2.0-Lite:生产力主力款,综合测试超越上一代旗舰豆包 1.8。核心策略为价格重塑,输入侧百万 Tokens 定价低至 0.6 元人民币。
  • Doubao-Seed-2.0-Mini:面向高频低时延场景。支持 256k 超长上下文窗口,并开放了 4 档思考长度调节机制以控制算力开销。
  • Doubao-Seed-2.0-Code:垂直代码模型。针对前端开发及企业级多语言编码环境定向微调,已深度接入字节系 AI 编程客户端 TRAE。

📌 Benchmark 数据比对

基于 2026 年 2 月最新公开的技术报告与独立评测库(如 Multi-SWE-Bench)的三角验证,以下是 Doubao-Seed-2.0-Code 与当前业界标杆 Claude Opus 4.6 及 GPT-5.2 的核心工程能力对比:

评测维度 / 模型 Doubao-Seed-2.0-Code Claude Opus 4.6 GPT-5.2 Codex
Multi-SWE-Bench (跨文件/多语言真实 Issue 修复) 49.4% 50.3% ~42.7%
SWE-Bench Multilingual (9 种编程语言综合修复率) 72.5% 77.8% 暂无官方完整披露
原生上下文窗口 (Context Window) 256K 1M 400K
API 综合调用成本预估 约定价于行业均价的 1/10 ~$75 / 1M Tokens (输出) ~$60 / 1M Tokens (输出)

破除 Python 偏科:多语言工程化落地

传统的 SWE-Bench 测试集高度偏向 Python 生态。而在涵盖 Java、TypeScript、Go、C++ 等复杂企业级语言的 Multi-SWE-Bench 极限测试中,Doubao 取得 49.4% 的综合解决率,与榜首 Claude Opus 4.6(50.3%)差距不足 1%,从底层证明了其跨语言语法的特征对齐能力,而非单一语言的过拟合(Overfitting)。

Agent 规划与代码库导航

得益于原生 256K 的上下文窗口,Doubao-Seed-2.0-Code 能够完整摄入中大型项目的依赖关系树及 Diff 记录。在实际的测试框架下,其展现出了极强的“提议-验证-回滚”的 Agent 工作流意识,将模糊的业务工单(Tickets)转化为带溯源注释的代码补丁。

679 词

豆包大模型2.0 Pro重点强化深度推理与多模态动态感知能力,核心指标对标GPT-5.2与Gemini 3 Pro,并通过阶梯定价策略降低复杂Agent任务的API调用成本。
iShot_2026-02-14_15.05.22

2026年2月14日,字节跳动正式推出豆包大模型2.0(Doubao-Seed-2.0)系列,面向大规模生产环境。目前,豆包App、PC客户端及网页版已全线上线“专家模式”,默认调用Pro版模型;B端API已同步登陆火山引擎。

  • 2.0 Pro(旗舰版):主攻深度推理与长链路任务。采取按“输入长度”区间定价,32K以内的输入为3.2元/百万Tokens,输出为16元/百万Tokens。
  • 2.0 Lite / Mini:Lite版综合性能超越前代主力模型(豆包1.8),输入定价下探至0.6元/百万Tokens;Mini版主打低时延与高并发场景。
  • 2.0 Code:专为编程场景构建,已接入字节AI编程产品TRAE。

核心Benchmark与技术突破点

  • 数学与逻辑推理:2.0 Pro 在 IMO(国际数学奥赛)、CMO 及 ICPC 编程竞赛中达到金牌级水平;在 Putnam 基准测试中成绩超越 Gemini 3 Pro。
  • Agent能力与世界知识:在 HLE-text(人类的最后考试)中获得目前披露的最高分 54.2 分;在长尾领域知识测试 SuperGPQA 中分数超过 GPT-5.2,并在 HealthBench 排名第一。
  • 动态多模态理解:对时间序列与运动感知的理解大幅升级。在 EgoTempo 视频基准测试中超越人类基准线,捕捉“变化、动作、节奏”的能力提升,支持实时流式视频问答与环境主动感知。
845 词

标题:MiniMax M2.5 开启内测:10B 激活参数对标 Claude Opus 4.6

MiniMax 发布 2026 年度首款旗舰编程模型,以“Agent 原生”架构切入市场,在保持 100 TPS 高吞吐的前提下,宣称代码与推理能力对标刚发布一周的 Claude Opus 4.6。
iShot_2026-02-12_22.26.14

1. 架构与性能 (Architecture & Specs)

  • MoE 架构优化:M2.5 延续了 MiniMax 的稀疏混合专家 (MoE) 路线,虽然总参数量庞大,但激活参数仅为 10B (100亿)。这种设计旨在平衡推理成本与性能,使其能够部署在对延迟敏感的生产环境中。
  • 高吞吐表现:实测推理速度达到 100 TPS (Tokens Per Second),在处理长上下文代码补全和多轮对话时,延迟显著低于同级别的竞品(如 DeepSeek-V3.2 或 Kimi K2.5)。
  • 对标竞品:官方基准测试(Benchmark)声称其编程与 Agent 编排能力直接对标 Claude Opus 4.6(Anthropic 于 2026 年 2 月 5 日发布的最新旗舰)。

2. Agent 原生能力 (Agent-Native Capabilities)

  • 全栈开发闭环:不同于传统的“文本生成代码”模型,M2.5 被定义为“生产级 Agent 原生模型”。它针对**Code-Run-Fix(代码-运行-修复)**的迭代循环进行了专项训练,能够自主执行多文件编辑、终端调试及跨平台(PC/App/Web)应用构建。

  • 复杂任务编排:在“深度研究”和“高级 Excel 处理”等办公场景中表现突出,能够协调调用 Shell、浏览器及 Python 解释器等工具,维持长链路逻辑的一致性。

  • 海外内测:目前该模型已在 MiniMax 的海外 Agent 产品线中开启小范围内测。

  • 受 M2.5 发布消息影响,相关上市实体 MINIMAX-WP (00100.HK) 股价在 2 月 12 日单日涨幅一度超过 20%,市值突破 1800 亿港元。市场将其解读为国产大模型从“通用追赶”向“垂直场景(编程/Agent)变现”转型的信号。

660 词

Google 旗下的 AI 原生 IDE “Antigravity” 已于 2026 年 2 月 6 日完成对 Anthropic 最新模型 Claude Opus 4.6 的接入,用户通过重启客户端即可在模型列表中调用。
iShot_2026-02-10_23.16.11

核心集成:Claude Opus 4.6 (2026.02 Update)

根据 Google AI 开发者社区及 Reddit 核心用户反馈,Antigravity IDE 的最新热更新已将 reasoning model(推理模型)列表中的 Claude Opus 4.5 替换或升级为 Claude Opus 4.6。

  • 接入方式: 官方原生支持(通过 Google Vertex Model Garden 渠道),无需用户配置第三方 Proxy。

  • 版本特性: Opus 4.6 是 Anthropic 于 2026 年 2 月初发布的最新旗舰模型,主要针对长上下文代码推理和复杂重构任务进行了优化。

  • 生效方法: 用户需重启 Antigravity 客户端(完全关闭进程),在 Agent 设置的 “Reasoning Model” 下拉菜单中即可看到新版本。

性能表现与差异

早期采用者(Early Adopters)在实测中指出 Opus 4.6 与前代版本的显著差异:

  • 问题修复能力:针对 4.5 版本中存在的特定死循环(Soft-locked loop)和移动端应用(如 Expo/React Native)构建错误,4.6 展现了更高的“一次性修复率”。

  • Thinking 模式:在 “High Effort”(深度思考)模式下,Opus 4.6 的 Token 消耗速率约为 4.5 版本的 4 倍,表明其思维链(Chain of Thought)更加详尽。

749 词

字节跳动于 2026 年 2 月初低调上线的新一代视频模型,核心突破在于原生音画同步多镜头叙事的一致性,标志着 AI 视频生成从“生成一段素材”进化为“导演一场戏”。
iShot_2026-02-09_19.24.05

1. 原生音画同构与多镜头叙事 (Native A/V & Multi-Shot)

Seedance 2.0 最显著的代际差异在于其架构不再是“视频生成+后配音”,而是双分支扩散变换器 (Dual-Branch DiT),实现了视频与音频的单次推理同步生成 (One-pass Generation)

  • 一致性突破:支持“多镜头叙事”,即用户输入一段故事脚本,模型自动生成包含多个分镜的连贯片段。实测显示,在不同景别(特写、中景、远景)切换中,角色面部特征、衣着细节及场景氛围维持高度统一,解决了此前行业普遍存在的“换个镜头就换张脸”的痛点。
  • 音画同步:生成的视频自带原生音频,涵盖口型同步(Lip-sync)、环境音效及配乐,且音效能精确匹配画面动作(如金属撞击声)。

2. 「导演级」控制权 (Director-Level Control)

该模型集成了类似“虚拟导演”的逻辑,大幅降低了提示词门槛,同时提升了可控性。

  • 自动运镜与分镜:模型具备自运镜 (Auto-Camera) 能力,能根据文本情节自动规划推拉摇移。
  • 多模态参考 (Universal Reference):支持极高带宽的输入,允许同时输入最多 9 张参考图3 段参考视频3 段参考音频。这意味着创作者可以用具体的视觉/听觉素材精准控制生成结果的风格、动作和节奏,而非仅依赖文字。
  • 物理引擎升级:重构了物理规律理解模块,在处理高速运动、织物飘动、流体及光影反射(如眼镜反光稳定性)时,符合真实物理反馈,消除了大部分“AI 塑料感”。

目前已在字节跳动旗下即梦 (Jimeng) 平台上线,面向订阅用户开放。

746 词

这是一个标志着 OpenClaw 从“极客玩具”向“生产级基础设施”转型的里程碑版本。核心信号在于对安全性的系统级加固(34项安全提交),以及对下一代模型(Opus 4.6/GPT-5.3)的超前架构兼容。
iShot_2026-02-04_20.31.35

  • 安全防线重构 (Critical Security Hardening)

  • SSRF 与 远程执行封堵:修复了高危的 SSRF 漏洞,现在对 Skill 安装下载和媒体理解(Media Understanding)的 Provider 获取请求实施严格的 SSRF 护栏,并明确阻止私有/本地主机 URL。

  • 权限收束:Windows 环境下的 exec 白名单得到加固,封堵了通过单 & 符号绕过 cmd.exe 的路径。Gateway 的 /approve 指令现在强制要求 operator.approvals 权限,杜绝未授权审批。

  • 身份验证升级:在跳过设备身份验证前,现在强制要求验证共享密钥(Shared-secret auth),并修复了 Matrix 协议中模糊名称解析可能导致的未授权访问问题。

  • 模型与基础设施扩展 (Model & Infra)

  • 超前兼容性:代码库已预埋对 Anthropic Opus 4.6OpenAI Codex gpt-5.3-codex 的支持(含前向兼容的回退机制)。这意味着 OpenClaw 正试图成为首个原生支持这两款尚未全面公测模型的主流 Agent 框架。

  • 多模态与记忆增强:原生集成 Voyage AI 以提升长期记忆(Memory)的检索性能;新增 xAI (Grok) 作为官方支持的 Provider。

  • 可观测性:Web UI 新增 Token 使用量仪表盘(Token Usage Dashboard),解决了此前自托管用户难以统计多模型混合调用成本的痛点。

  • OpenClaw v2026.2.6 Release Notes